We explore unifying a neural segmenter with two-pass cascaded encoder ASR into a single model. A key challenge is allowing the segmenter (which runs in real-time, synchronously with the decoder) to finalize the 2nd pass (which runs 900 ms behind real-time) without introducing user-perceived latency or deletion errors during inference. We propose a design where the neural segmenter is integrated with the causal 1st pass decoder to emit a end-of-segment (EOS) signal in real-time. The EOS signal is then used to finalize the non-causal 2nd pass. We experiment with different ways to finalize the 2nd pass, and find that a novel dummy frame injection strategy allows for simultaneous high quality 2nd pass results and low finalization latency. On a real-world long-form captioning task (YouTube), we achieve 2.4% relative WER and 140 ms EOS latency gains over a baseline VAD-based segmenter with the same cascaded encoder.
translated by 谷歌翻译
设备的端到端(E2E)模型已显示出对质量和延迟的英语语音搜索任务的常规模型的改进。 E2E模型还显示了多语言自动语音识别(ASR)的有希望的结果。在本文中,我们将以前的容量解决方案扩展到流应用程序,并提出流媒体多语言E2E ASR系统,该系统在设备上完全运行,质量和延迟与单个单语言模型相当。为了实现这一目标,我们提出了一个编码器端量模型和一个终端(EOU)联合层,以提高质量和延迟权衡。我们的系统以语言不可知论的方式构建,允许它实时支持本条件的代码切换。为了解决大型模型的可行性问题,我们进行了设备分析,并用最近开发的嵌入解码器代替了耗时的LSTM解码器。通过这些更改,我们设法在不到实时的时间内在移动设备上运行了这样的系统。
translated by 谷歌翻译
尽管流媒体助手系统已在许多应用中使用,但该系统通常集中于不自然的单次交互,假设来自单个语音查询的输入毫不犹豫地或不足。但是,除了反弹之外,常见的对话说法通常涉及多个转弯的查询。这些疏远包括暂停思考,犹豫,延长单词,填补的停顿和重复的短语。这使得通过对话演讲进行语音识别,其中包括有多个查询,这是一项具有挑战性的任务。为了更好地建模对话互动,至关重要的是,歧视汇率和查询的结束至关重要,以使用户能够在用户完成时,同时使系统尽快做出响应,以使用户保持地板的折衷。在本文中,我们提出了一个基于端到端(E2E)语音识别器的转折预测指标。我们的最佳系统是通过共同优化ASR任务并检测用户何时停止思考或完成口语来获得的。所提出的方法显示,在预测真正的转弯率的97%以上的召回率和85%的精度率中,在设计集中仅100毫秒延迟,设计了4种类型的对话说法中插入4种散布。
translated by 谷歌翻译
由于无标记的文本和语音数据的广泛可用性,最近基于仅音频数据的仅文本和半监督培训已广受欢迎。在这项工作中,我们建议将纯文本和半监督培训纳入基于注意力的审议模型。通过将纯文本数据合并到培训审议文本编码器的变压器(BERT)的双向编码器表示中,以及使用联合声学和文本解码器(JATD)和半诉讼程序的大规模文本到语音和纯音频和音频话语培训,与基线审议相比,我们的各种任务减少了4%-12%。与最先进的语言模型(LM)纠正方法相比,审议模型将Google语音搜索降低了11%。我们表明,与具有合理的终端潜伏期的最先进的LM委员相比,审议模型还获得了正面的人类并排评估。
translated by 谷歌翻译
语言模型(LMS)显着提高端到端模型(E2E)模型在训练过程中很少见的单词的识别准确性,当时在浅融合或重新恢复设置中。在这项工作中,我们介绍了LMS在判别培训框架中学习混合自动回旋传感器(HAT)模型的研究,以减轻有关使用LMS的训练与推理差距。对于浅融合设置,我们在假设生成和损失计算过程中都使用LMS,而LM感知的MWER训练模型可实现10 \%的相对改进,比用标准MWER在语音搜索测试集中培训的模型相对改进,其中包含稀有单词。对于重新设置,我们学会了一个小型神经模块,以数据依赖性方式产生串联的融合权重。该模型与常规MWER训练的模型相同,但无需清除融合重量。
translated by 谷歌翻译
在本文中,我们提出了一个动态的级联编码器自动语音识别(ASR)模型,该模型统一了不同部署方案的模型。此外,该模型可以显着降低模型尺寸和功耗而不会损失质量。也就是说,使用动态级联编码器模型,我们探索了三种技术,以最大程度地提高每个模型大小的性能:1)在共享编码器时为每个子模型使用单独的解码器;2)使用漏斗 - 提高编码器效率;3)平衡因果关系的大小,以提高质量和适合部署限制。总体而言,与基线级联编码器模型相比,拟议的大中等模型的尺寸较小30%,并将功耗降低了33%。统一大型,中和小型模型的三重大小模型可实现37%的总尺寸减少,而质量损失最小,同时大大减少了拥有单独模型的工程工作。
translated by 谷歌翻译
近年来,在设备上的演讲识别(ASR)的个性化已经爆炸性增长,这在很大程度上是由于个人助理功能在移动设备和智能家居扬声器上越来越受欢迎。在这项工作中,我们提出了个人VAD 2.0,这是一种个性化的语音活动探测器,可检测目标扬声器的语音活动,作为流媒体上的ASR系统的一部分。尽管以前的概念证明研究已经验证了个人VAD的有效性,但在生产中可以使用该模型之前,仍然存在一些关键的挑战:首先,在招生和无人列的场景中,质量必须令人满意。其次,它应该以流媒体方式运行。最后,型号的大小应足够小,以适合有限的延迟和CPU/内存预算。为了满足多方面的要求,我们提出了一系列新颖的设计:1)高级扬声器嵌入调制方法; 2)一种新的培训范式,以概括为无数的条件; 3)用于延迟和资源限制的体系结构和运行时优化。对现实语音识别系统的广泛实验证明了我们提出的方法的最新性能。
translated by 谷歌翻译
减少潜伏期和模型大小一直是实时自动语音识别(ASR)应用程序方案的重要研究问题。沿着这个方向,模型量化已成为压缩神经网络并降低计算成本的越来越流行的方法。大多数现有的实用ASR系统都采用训练后8位量化。为了在不引入额外的性能回归的情况下达到更高的压缩率,在这项研究中,我们建议开发具有本机量化培训的4位ASR模型,该模型利用天然整数操作有效地优化培训和推理。我们对基于最新构象体的ASR模型进行了两个实验,以评估我们提出的量化技术。首先,我们探讨了不同精度对重量和激活量化对LibrisPeech数据集的影响,并获得了与Float32模型相比,获得了7.7倍尺寸的无损4位构象异构体模型。此后,我们首次研究并揭示了在使用大型数据集训练的实用ASR系统上的4位量化的可行性,并产生了具有4位混合重量和8位权重的无损构象体ASR模型与FLOAT32模型相比,尺寸减小了5倍。
translated by 谷歌翻译
在本文中,我们提出了一种解决方案,以允许扬声器条件语音模型,例如VoiceFilter-Lite,以支持单个通过中的任意数量的注册用户。这是通过使用多个扬声器嵌入的注意机制来实现,以计算单个细小嵌入,然后将其用作模型的侧面输入。我们实现了多用户VoiceFilter-Lite并为三个任务进行了评估:(1)流自动语音识别(ASR)任务; (2)独立于文本的扬声器验证任务; (3)个性化关键级检测任务,其中ASR必须在嘈杂的环境中检测来自多个注册用户的关键次数。我们的实验表明,在最多四个注册的用户中,多用户VoiceFilter-Lite能够在具有重叠语音时显着降低语音识别和扬声器验证错误,而不会影响其他声学条件下的性能。这种细心的扬声器嵌入方法也可以轻松应用于其他扬声器条件模型,如个人VAD和个性化ASR。
translated by 谷歌翻译
Designing experiments often requires balancing between learning about the true treatment effects and earning from allocating more samples to the superior treatment. While optimal algorithms for the Multi-Armed Bandit Problem (MABP) provide allocation policies that optimally balance learning and earning, they tend to be computationally expensive. The Gittins Index (GI) is a solution to the MABP that can simultaneously attain optimality and computationally efficiency goals, and it has been recently used in experiments with Bernoulli and Gaussian rewards. For the first time, we present a modification of the GI rule that can be used in experiments with exponentially-distributed rewards. We report its performance in simulated 2- armed and 3-armed experiments. Compared to traditional non-adaptive designs, our novel GI modified design shows operating characteristics comparable in learning (e.g. statistical power) but substantially better in earning (e.g. direct benefits). This illustrates the potential that designs using a GI approach to allocate participants have to improve participant benefits, increase efficiencies, and reduce experimental costs in adaptive multi-armed experiments with exponential rewards.
translated by 谷歌翻译